SU UN TEOREMA CONCERNENTE LE COSIDDETTE 
STATISTICHE SUFFICIENTI 

J. NE YUAN. 


Sunto. — L’A., riferendosi al concetto delle cosiddette « statistiche s o « valu¬ 
tazioni di un parametro » introdotte da R. A. Fisher, dà le condizioni necessarie 
e sufficienti perchè tali « valutazioni 2 9Ìano « sufficienti » in un senso che è stato 
indicato dal Fisher stesso. Queste condizioni sono tali che è facile accertare se esse 
sono, oppur no, soddisfatte nei casi particolari. Pertanto esse possono essere usate 
come un criterio per riconoscere se una statistica sia sufficiente. La teoria è illu¬ 
strata con un esempio. 

1. Alcuni anni fa R. A. Fisher espresse il desiderio che si colla- 
borasse per la dimostrazione della proposizione seguente x ): Se esi¬ 
stono delle 4 statistiche sufficienti ) esse possono essere determinate col 
metodo della 4massima verosimiglianza) (maximum Likelihood). 

Ci proponiamo di far vedere, in questa Nota, che la dimostrazione 
di questa proposizione può essere facilmente raggiunta quando le 
condizioni del teorema siano state chiaramente specificate. 

In relazione al quesito proposto dimostreremo precisamente che, 
se esiste una valutazione sufficiente di un parametro, il valore che 
si ottiene per esso mediante il cosiddetto metodo della 4 massima 
verosimiglianza ) è funzione soltanto di quella valutazione. 

Cominceremo con lo spiegare la notazione da usarsi e col richia¬ 
mare talune definizioni e proprietà sulle variabili casuali. 

2. Indicheremo con P {E} la probabilità che si verifichi un evento 
E e con P {E/E t } la probabilità che si verifichi Io stesso evento nel¬ 
l’ipotesi che un altro evento E x si sia già verificato. Ciò esprimeremo 
in seguito dicendo che P{ElEx} è la probabilità di E dato E IÀ 


*) R. A. Fisher, On thè Mathematical Foundations of Theoretìcal Statistics. 
« Philosophical Trans action of thè Royal Society of London 2, Series A, voi. 222, 
pag. 323, London, 1922. 
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Indicando con X una variabile casuale, diremo che essa è con¬ 
tinua se, preso un numero qualunque oc, si abbia P {X — a} = o 
mentre per almeno una coppia di numeri a e b con a <C A si abbia 
P {à <£.X <b}> o. Diremo invece che la variabile casuale X 
■è discontinua, se esiste un certo insieme discreto I di numeri tale 
■che sia P {X = (ì}> o, se p è un numero appartenente ad I e 
P{c <iX <C.d) = o sé c e d sono due numeri tali che fra essi non vi 
■siano compresi numeri appartenenti ad I. 

In ciò che segue considereremo soltanto variabili casuali delle 
due specie ora definite. 

Consideriamo ora n variabili casuali X x , X 2 , • • ♦ , X n e indi¬ 
chiamo con H il punto dello spazio 5 ad n dimensioni avente per 
coordinate i valori x x , x 2 , • • • ,x n che le variabili indicate possono 
assumere in uria determinata prova od esperienza. 

Supponendo che le variabili casuali X,, X 2 , * * • , X» siano con¬ 
tinue, indichiamo con p (x z , x 2i * • * , x n ) la densità della proba¬ 
bilità che dette variabili assumano valori compresi tra x x e x x + dx z , 
x 2 e x 2 -j- dx 2i • • • , x n e x n + dx n rispettivamente. Considerata una 
regione qualunque co dello spazio S la probabilità che il punto H 
appartenga ad co è data allora da 


w 


P i He a ) = f ■ ■ ■ J p (x x , Xi, • ■ ■, x„) dx t dx* • • • dx n 


0 > 


dove He co significa che il punto H appartiene ad co. 

La funzione p (x z , x 2 , • • • , x n ) è definita non negativa e con¬ 
tinua quasi dappertutto in S (eccettuato cioè al più in un insieme di 
punti di misura nulla). Evidentemente si ha 


{3] 



,x. ,■ • •,x„) dx % dx, ■ ■ • dx n = I 


I 




Xn 


OO 

-Ò—JP (*. 


, X n ) dx n 


■OC 


Consideriamo ora n nuove variabili casuali continue Y Zt Y 2J - ** y Y n 
■è indichiamo con p (y x y y 2 , • • • , y n ) la densità della probabilità che 
dette variabili assumano valori rispettivamente compresi tra y x e 
Xx +dyi,y *e y 2 -j-dy 2 , **• ,y n e y„ +dy n . 
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Allora, sé 


[4] xi = xi(y* 9 y*, (i=i,2 ,n) 

rappresenta una trasformazione biunivoca dello spàzio S' delle y 
nello spazio 5 dèlie *, eccettuato al più per un insieme di punti di 
misura nulla; se inoltre esistono e sono continue le derivate parziali 
delle [4] e se il determinante funzionale 

m a _ 3 (*» » ~ • • . *») 

l5J 9 (y.. •••.*) 

non cambia segno ed è diverso da zero in quasi tutto lo spazio S', 
si ha 

[6] /(y.. • •• .y») = /(*. > .•.,*,)! A|. 

Nel seguito dovremo considerare delle funzioni T XÌ T % ,* - dei 
valori x x , x 3 , * • * , x n che possónò assumere le variabili casuali X z , 
X 2 ,* * • , X n . Se queste variàbili sono discontinue basterà supporre.che 
le funzioni T siano univoche. Se invece le variabili’ sono continue, 
sarà richiesta inoltre resistenza e la continuità delle derivate par- 


dT 

ziali - (i = 1,2 , * • • , n) rispetto a ciascun valore di x x . D’altra 

parte dev’esser soddisfatta la condizione che almeno una di queste 
derivate parziali relative a ciascuna funzione non si annulli, salvo 
al più in un insieme di punti di misura nulla. Poiché l’ordine 
nel quale le variabili vengono considerate è arbitrano, supporremo 

- =\= o. 

0*1 1 

Se si considerano due funzioni indipendenti, T l} T 23 si supporrà 
3 (7 1 7 1 ) 

similmente che —~ non si annulli salvo al più in un insieme di 

9 (*■,.*.) ' 

punti di misura nulla. 

Consideriamo di nuovo le variabili casuali X z , X 2 , • • • , X n e 
indichiamo con p (xt+ z , • • • , x n jx° , ■ • • , x£) la densità della proba¬ 
bilità che le variabili X&+ z , • • • , X n assumano rispettivamente valori 
compresi tra x^ +x e -f- dx k+x , * • • , x n e x n + dx n , nell’ipotesi 

che le rimanenti variabili abbiano assunto valori fissi x°, • • - , *J. 

Allora, qualunque sia la regione cù dello spazio ad « — k dimen¬ 
sioni e qualunque siano i valori fissi x?, • • • , x^ avremo, indicando 
con H un punto di questo spazio di coordinate • • • , x n 
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[7] P((tf e a>)/(= = 

/(**+!.- • • ,Znlx° t > • • ’ >Xt)d **+1 ' • • dx n . 

(ù 

Si può inoltre dimostrare che 

[%1 #(?x, "• tXk,*i+x ,**•,*«) = 

== P (X x » * ’ * » ^i) ’ P (^i -fi* + 2 t ‘ * * J X n jX I , J • • • > 

Osserviamo infine che quando due densità di probabilità dif¬ 
feriscono soltanto in un insieme di punti di misura nulla, esse 
dovranno essere considerate come identiche. 

Faremo uso di questa osservazione più avanti. 

Nel caso in cui le variabili casuali X x , • • « , X n siano discon¬ 
tinue, indicheremo con p (x\ , - ♦ • , x n ) la probabilità che esse assu¬ 
mano rispettivamente i valori x z , • ■ • , x n . 

Si ha cioè 

[9] p(x !,*•*, Xn) = P {(Xx = Xx) ,* * *, C Xn = X n )j . 

Tutte le formule precedenti riguardanti variabili continue si 
possono estendere in modo evidente al caso di variabili discontinue. 
Naturalmente dove avevamo degli integrali si avranno delle somme 
di valori dip (xj , • • • , x n ) estese a determinati possibili valori delle x. 



3. Supponiamo che la probabilità che le variabili X z , ■ • - , X n 
assumano rispettivamente valori compresi tra x z e x t -\-dxx ,* • *,#» 
e x n + dx n , oppure assumano i valori x x , • • • , x n , secondochè le 
variàbili stesse siano continue o. discontinue, dipenda da un para- 
inetro a il cui valore sia incognito. 

Indichiamo con T delle funzioni delle x non contenenti a. 
Alcune di queste funzioni T sono tali che, sostituendo in esse alle x 
dei particolari valori osservati x°> i valori che tali funzioni ven¬ 
gono ad assumere possono considerarsi quali valori approssimati 
del parametro a. 

Le funzioni utili per tali scopi sono chiamate « valutazioni di a » 
o brevemente « statistiche ». 
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Per esempio, se la densità della probabilità relativa ad n varia¬ 
bili casuali continue X x , X t , ■ ■ - , X n è data da * 

S (*£~°) 2 

i ”1 _ 

[10] p (x t , • • •, Xn) = (— 1 =)" e aa * 

dove a e g sono due parametri incogniti, il parametro a può essere 
valutato mediante le seguenti funzioni 

[11] 7'.=^- È*,- = Z, 

» *'« I 

% 

[ 12 ] , 

dove e indicano il più piccolo e il più grande valore delle x. 
Evidentemente possono suggerirsi anche altre valutazioni di a» 
Il parametro u può essere valutato per mezzo della funzione 

[ 13 ] = —- 2 \ x *~~ x | >. 

n iax 

dove c è ima costante, oppure per mezzo della funzione 



Queste varie funzioni non ci daranno i valori dei parametri con 
la stessa approssimazione, ma finché non si.richieda una determinata 
approssimazione si può usare indifferentemente l T una o l’altra di 
esse per la valutazione dei ^parametri stessi. 

4. Un’importante classe di 4 statistiche * è costituita dalle cosid¬ 
dette 4 statistiche sufficienti » che furono considerate per la prima 
volta da R. A. Fisher 

Premettiamo che una statistica o valutazione T di un parametro a 
si può considerare quale valore assunto, in una prova, di una varia¬ 
bile casuale e possiamo indicare con p (T) la probabilità, che % 


a ) Cfr. loc. cit. *). 
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assuma il valore 7 \ Ciò se la variabile è discontinua; se invece % 
è continua, p (T) indicherà* la densità della probabilità che la varia¬ 
bile V assuma un valore compreso fra T e T -f* dT. 

Considerata un’altra valutazione T l del parametro a, e la cor¬ 
rispondente variabile casuale , continua o discontinua, indicheremo 
con p (TJT) la probabilità che la variabile ‘S’i assuma il valore T x . 
quando la % abbia assunto il valore T, se per esempio le variabili 
e sono discontinue. Nel caso che queste variabili siano con¬ 
tinue la p (T t jT) rappresenterà la densità della corrispondente pro¬ 
babilità. 

Ciò premesso: 

Una statistica o valutazione T di un parametro a è detta suffi¬ 
ciente, se per ogni alita valutazione T z la funzione p (TfT) è indi- 
pendente da <2. 

È evidente che se T è una valutazione sufficiente di a, anche 
qualunque funzione monotona in senso stretto di T è pure una 
valutazione sufficiente di a. 

Più generalmente, se T è una statistica sufficiente di un para¬ 
metro a e Tj tana funzione univoca di T e tale che ad un valore 
di T x corrisponda uno ed un solo valore di T, allora T t è pure una 
statistica sufficiente. D’altra parte, se T t è ima funzione univoca 
di T, che assuma lo stesso valore in corrispondenza a due differenti 
valori di T> allora T x non è necessariamente una statistica sufficiente. 

La ragione per cui le statistiche aventi ìa proprietà ora detta 
sono chiamate « sufficienti » apparisce da quanto segue. 

Intanto è ovvio che se la legge di probabilità relativa ad ima 
funzione delle x, ad esempio T : , non contiene il parametro a che si 
tratta di stimare, non sarà possibile determinare a, in modo che, 
ad esempio, risulti massima la funzione p ( 7 \), e pertanto una 
siffatta funzione T x è per noi insignificante. 

Ora se T è una «statistica sufficiente» secondo la suindicata 
definizione, ogni altra statistica T x sarà insignificante poiché la legge 
di probabilità di 7 *, nell’ipotesi che T sia conosciuta è, per defini¬ 
zione, indipendente da a. In altri termini se una statistica T è suffi¬ 
ciente per la determinazione di a , ogni altra statistica T x è da con¬ 
siderarsi inutile. 

5. Il metodo che si pone a base della ricerca delle valutazioni 
di un parametro a , conosciuto col nome di « metodo della massima 
verosimiglianza », consiste nel determinare, per ogni sistema di valori 




$26 


J. Neyman. 


Xi (7 = 1,2, • • ■ , n) quel valore a del parametro a che rende mas¬ 
sima la funzione p (x t , x t , •, #«). 

Dimostreremo un teorema che può essere enunciato còme segue: 
Teorema I* — Se esiste una valutazione sufficiente T del para¬ 
metro a , il valore à che si ottiene col metodo detta massima verosimi¬ 
glianza è una funzione cLlla sola T e pertanto non dipende esplici¬ 
tamente dalle x. 

La dimostrazione di questo teorema è basata sul seguente 
TEOREMA II. —Se T è una valutazione sizfficiente del para¬ 
metro a, allora la funzione p (x r , • • • , x n ) può essere presentata in 
forma di prodotto 


{I5Ì- P (*x, • • • >**) = P (TV ® » * 4 * > x «) » 


dove p (T) dipende da a e O (x z , • • • , x„) è una determinata funzione 
delle x non contenente a . 

Inversamente , se Tè una funzione dette sole x e sé la [ 15] è soddi¬ 
sfatta ,, allora T è una valutazione sufficiente del parametro a. 

La seconda parte del Teorema II si dimostra subito. Conside¬ 
riamo per esempio il caso in cui le Xi (z\= I , 2, • • ■ , n) siano 
continue. 

Supponiamo allora che la funzione T verifichi la [15] e sia T t 
una nuova funzione delle x indipendente da a, tale che sia impos¬ 
sibile considerarla come funzione univoca di 


3 Cx X ^ 

Poiché, per le ipotesi fatte, il determinante funzionale g (j* * y y * 

non è identicamente nullo, la densità della probabilità p{TfT) si 
otterrà integrando rispetto a , x+ , • • •, x n il prodotto 


0 (* t ,- • ■, x n ) 


d (x t , X^) 1 

a( T t T t ) I’ 


dove x x ed x 2 saranno espresse in funzione di T , T%, x $ , • * • , x n . 
.Essendo questo prodotto indipendente da a tale sarà pure p (T x/Z 1 ) 
e ciò significa che T è una statistica sufficiente. 

Il caso in cui le X siano discontinue si tratta in maniera perfet¬ 
tamente analoga. 


3) È ovvio che non sarebbe utile considerare la funzione T x = /(T).quale fun¬ 
zione univoca di T, poiché in tal caso il, valore di T determina quello di T t ed 
allora p (TJ7*) sarebbe sempre nulla salvo che per T x = f (T) nel quali caso 
sarebbe eguale all’unità. 



Su -un teorema concernente le cosiddette statìstiche sufficienti. 


327 


Prima di procedere oltre può essere utile illustrare il significato 
del Teorema II. 

Suppóniamo “di nuòvo che'la'[io] rappresenti la densità della 
probabilità che le variabili casuali X z , X 2 , • • • , X n assumano va¬ 
lori compresi, tra x t e x z + dxi, x z e x* -{-dx a , • « •, x n e x n + dx n . 
È noto allora che la densità delia probabilità che la variabile 
casuale 

X z {^X 2 + * ■ * '{'Xn 


X = 


n 


assuma un valore compreso fra.r e x -\-dx è data da 

h (x — a ) 2 
ìi*t 

[16] 


Ì* aC * 

p(x) = —=-e 


'Ì 2 K 

Confrontando t cpn la [io] otteniamo facilmente 

[17] P C^x » * ’ ’ » %n) = P (x) • O (pC z t X 2 , • • • , Xn ), 
dove 

S X ) 2 

>‘°I _ 

[18] = 

]n V ffV 27C ' 

Poiché la funzione Q> (x r , X* ■ t x n ) non contiene a t segue dal 
Teorema II chè T z = x = — ^ Xi è una valutazione sufficiente di a. 

to x 


=*|/^S C*! — *)’ 


Come altro esempio è facile vedere che 5 “ 
non è una valutazione sufficiente di a. Infatti la densità della proba¬ 
bilità che la nuova variabile casuale § = j/^ (Xi — X) 2 assuma 
un valore compreso tra è <Jata per 5^0 da 


s 2 


[?9] 


/CS) = — 


*—3 


t % -I \ *—x 


•r (-=!-) 


da cui segue 

[20] p (x z t X it • • • f Xn) === p ( S) ■ T* (x t , X 2 , • * * j Xn » c) » 
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dove 

[2i] Y(* Jf x 2 , 


>Xn,a) 



n —i 


2 


) 


^ a a 
2 7C a 


,—* +a 




ao* 


Poiché la funzione T (x r , x 2 , • • • , x„ , a) dipende da <* ne viene 
che S non è una valutazione sufficiente di a. Ne segue che non sono 
valutazioni sufficienti di c nemmeno Sft n —T ed Spfn . 


6 . Osserviamo ancora, prima di dimostrare la proposizione che 
costituisce la prima parte del Teorema II, che, una volta dimostrata 
tale proposizione, il Teorema I diventa un semplice corollario di essa. 

Scegliendo infatti a — à in maniera da rendere massima la 
funzione p (x z x n ) per un assegnato sistema di valori delle x, 

sarà resa massima anche p (T) essendo O (x z , • • •, x n ) indipendente 
da a . Allora, poiché p (T) non dipende esplicitamente dalle x ma vi 
dipende solo attraverso la funzione T, il valore a —a che rende mas¬ 
sima p (T) dipende unicamente dal valore di T. 

Abbiamo quindi soltanto da dimostrare la prima parte del 
Teorema IL 


7. Supponiamo che la funzione T x (x z , * • • , x n ) sia una valu¬ 
tazione sufficiente di a. Consideriamo la funzione p (T x , y 2 , • ■ •, y n ) 
relativa ad un nuovo sistema di variabili casuali , K a , * ' •, F«. 
Le variabili casuali indicate siano legate alle Xi (i = I , 2 , • • •, ri) 
mediante le relazioni 


[22] 


« ( X t > — > 

Y,=X f , (r = 2 , ■■■,«). 


Per la [6] avremo 

[23] p (x,, • • • ,x„) =p (T, ,y t , • • • ,yn) | 






se le variabili casuali considerate sono continue e 


[24] P (*.»'• • • .*«) =p(T,,y !, *• • ,y„) 

se sono discontinue. 
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In^ entrambi i casi le uguaglianze [23] e [24] valgono sotto la 
condizione che la corrispondenza fra le X e le nuove variabili sia 
espressa mediante le [22]. Ora, siano continue o discontinue le varia¬ 
bili, abbiamo 

[ 25 ] P ( 7 *. >y* » • • • >y«) —p(Tt) • p (y., ■ ■ ■ ,y„lT,) 
dove / ( 7 \) dipende da a; perciò si ha 
[a6] p(x,,--- ,x^=p{Ti)-■■■ .W7'0||^ L |. 

nel caso in cui le variabili siano continue e 


[27] 


p{x I, ■ • ■ ,Xn)=p(T 1 )-p(y t , ■ ■ ■, y'n'lT ,) 


nelFaltro caso. 

Poiché la funzione T z (x z , • • • , x n ) non dipende da a, anche la 


sua derivata 


dT x 

dX z 


non dipende da a. Perciò, in entrambi i casi, 


affinchè la prima parte del Teorema II resti dimostrata, avremo sol¬ 
tanto da provare che p (y 2 , - * • ,ynlTj) è indipendente da a. 

Nel caso in cui le variabili casuali X\ (i = 1,2, • . • , ri) e di 
conseguenza le Y r (r = 2,3 , •''• • , n )'e la siano discontinue, -ciò 
può essere provato senza alcuna restrizione. 

Se invece dette variabili sono continue, la indipendenza di 
p (y 2 , • • •, yn jTt) dahparametro a può essere dimostrata soltanto con 
riferimento ai sistemi di valori y 2 ,* • *,y» per i quali p(y 2 ,— ,> , „/ 7 \) 
è continua. 

Infatti, poiché l’insieme di punti dello spazio ad » — I dimen¬ 
sioni nel quale p (y 2 , * • • ,ynlTj) può essere discontinua è di misura 
nulla, i valori di p (y 2 , ■ • • in questi punti possono essere 

del tutto arbitrari e quindi possono dipendere da a. Pertanto, poiché 
le densità della probabilità che differiscono soltanto in un insieme 
di punti di misura nulla debbono essere considerate come identiche, 
avremo da esaminare i valori di p (y 2 , — t ynjT x ) f corrispondenti 
a differenti valori del parametro a, soltanto in punti di continuità. 
Con questa restrizione possiamo dimostrare la prima parte del Teo¬ 
rema li. 

Supponiamo che questo teorema non sia vero e indichiamo 
con yl , y° , • • • , y° n un sistema, di valori per i quali i valori 

Piiyl,* ",y°nlT z ) e p 2 (yl ,• • ',ylIT t ) assunti da / ,* • - ,ynlT x ) 
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in corrispondenza a due diversi valori di a, rispettivamente a z e a 2f 
non siano gli stessi. 

Supponiamo, per esempio, che sia 

[28] AW»”* >y°*lT 1) =pz(yl, • • * ,j£/ 7 \) +2a, 

con a > o. 

Come abbiamo già osservato, se le variabili Y r (r = 2,3 ,*• •, *) 
sono discontinue non vi saranno restrizioni per yZ, • • • ,yZ, mentre 
nel caso della continuità sarà necessario che tanto p t (y° , • • *, y*/ 7 \) 
quanto p a (y 2 , • • • , yl/T t ) siano continue nel punto y° a , • • * ,y%. 

Indichiamo ora con % 2 una nuova variabile casuale legata alle 
Y r mediante la relazione 


[29] sc^r— jO* 

r » 2 

Vedremo che sotto la condizione [28] la funzione p (T 2 /T x ) 
dipende da a . 

Consideriamo in primo luogo il caso in cui le variabili siano 
continue. 

Per la continuità di p t (y 2 r e p 2 (y* ,■ * ‘,ynlT z ) nel 

punto di coordinate y \, ••• possiamo determinare un valore 
T a = T ° 2 tale che sia 

[30] pi (y* ,y.lT x ) ^p 2 (jy 2ì "' ,y*IT x ) -fa 

entro tutta la iper$fera , 

[31] 

r «= a 

Indichiamo con P {(T 2 ^ Tt)lT z , <z;} la probabilità che un punto 
di coordinate y 2 , • • • , y n appartenga alla ipersfera S 0 , quando ^ x 
assuma un valore fisso T z e a il valore ai con i = 1, 2. 

Avremo 

[32] P[(T 2 ^~ 7 ^)JT z , ai) — • * jpiCy **’ ‘ ’ *y»fPì)dy 2 • • • » (* = I» 2 ) 

e per la [30] 


[33] 


/>{(r 2 -^75/r x , *) >/> (cr a ^ 7S/7\, * a ]. - 
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Ma P{(T 2 ^ 7 T)IT 2 , cu} può anche essere interpretata come 
la probabilità, data T x , che assuma un valore non superiore a T% . 
Conseguentemen te 

[34] P{(T,^TZ)IT,, a;\ = fMTJT,) dT lt (i = i , 2) 

O 

dove pi (T a IT x ) indica la densità della probabilità di corrispon¬ 
dente al valore di % x precedentemente fissato e al valore del para¬ 
metro a = ai (i — 1,2). 

Allora, perchè la [33] sia valida, dovrà esistere un insieme di 
valori di T 3 di misura non nulla nel quale sia 

[35] M7V7',)> j M7V7\); 

ne segue quindi che p ^T 2 IT Z ) dipende da a . - 

Questa conclusione contraddice airìpotesi fatta che T t sia una 
statistica sufficiente di a e quindi tale che qualunque sia la funzione 
T a la funzione p(T 3 fT t ) risulti indipendente da a. Ne viene quindi 
che p (y, , * * • lyn/Tj) è indipendente da a. 

Nel caso in cui le variabili siano discontinue la dimostrazione 
è ancora più semplice. 

Infatti, se vale là [28], possiamo subito concludere che p (T i lT t ') 
-dipende da a t poiché per T 3 — o abbiamo 

[36] ■ ■ ■ ,y%IT t ). 

Così il Teorema II e quindi il Teorema I sono dimostrati. 

Di solito il mètodo della massima verosimiglianza è applicato nel 
caso in cui la funzione p (x x , • • *, x n ) sia differenziabile rispetto ad a. 

Allora il valore à di a che si ottiene col metodo della massima 
verosimiglianza si ha risolvendo l’equazione 

3 (l°g/) 

Sa 

La dimostrazione precedente, però, non dipende dall’ipotesi che 
la funzione di a , p (x x , • ■ *, Xn), sia differenziabile rispetto ad a o 
anche soltanto continua. 

In certi problemi di genetica si hanno da considerare dei para¬ 
metri chie possono assumere soltanto valori interi. Anche in questi 
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casi il metodo della massima verosimiglianza può essere; .applicato 
con buon esito per trovare, quando esista, una «valutazione suffi¬ 
ciente» di tali parametri. 


8. Sarà utile illustrare con un esempio Fuso del teorema dimo¬ 
strato. 

Nell’esempio che daremo il parametro a non è una variabile 
continua e pertanto non dà luogo a differenziazione. 

Supponiamo che un certo carattere ereditario © di un organismo 
sia un carattere recessivo dipendente da un numero incognito di 
coppie di geni. Indicheremo * questi gqni con a\ (recessivi) ed Ai 
(dominanti) (* = i, 2 , * • • , n). 

Ne segue che un individuo possederà il carattere © se la sua 
composizione genetica è data da 

[ 38 ] *i9<h;<h,02 m r- '\OnyOn, 


e non possederà il carattere © in tutti gli altri casi. 

Per valutare il numero incognito n delle coppie di geni aventi 
influenza su © supponiamo siano stati fatti parecchi incroci fra gli 
ibridi, fra individui, cioè, aventi la seguente composizione genetica 

[39] • A Jt az 


Indichiamo con k il numero degli incroci fatti, con tri, il numero 
dei nati dall** 1 ® 0 incrocio e con xi il numero ejei nati dalPi mo incrocio 
che hanno il carattere ©. 

I valori Xi (i = 1,2 , * ■ • , £) possono pensarsi quali valori 
assunti da k variabili casuali Xi (ì = 1,2 , • - • , £). 

In accordo con la teoria di Mendel, la probabilità che un nato 
assegnato abbia il carattere © è uguale a 4—* = p n . La probabilità 
che fra m t nati ve ne siano esattamente x\ aventi il carattere* © è 
pertanto 


nti\ 


— xi) ! 


pn 0 —pn) mi ** ,(* = I , 2 , • • • , £). 


Infine, la probabilità che le k variabili X x , X 2 , ♦ • ♦, Xk assu¬ 
mano i valori x x , x 2 , • ■ • , Xi è data da 


[40] P ( z „ x x ,-• ■ ,**)= n M &‘( l ~ 

immi X\\ffti rjJ 1 




Su un teorema concernente le cosiddette statistiche sufficienti. 
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Vediamo ora se vi è una funzione delle x che costituisca una 
« valutazione sufficiente » del parametro incognito n. 

Applichiamo per questo il Teorema I e determiniamo una valu¬ 
tazione di n, col metodo della massima verosimiglianza : se esiste 
Una valutazione sufficiente di n, il valore. trovato co] metodo della 
massima verosimiglianza, sarà una funzione di quella valutazione 
sufficiente. 

Indichiamo con n il valore di n che rende massima la [40] o il 
più piccolo dei valori che godono* di questa proprietà, se ve ne è 
più d’uno. Avremo allora 

[ 4 1 ] 1 » * * * ,**/»“— 1) <A(** » • ‘ • * >*k\n ~h 0 > 

ovvero, per la [40], 


[42] *£_,(!- Pn-x) m ~*<P*n C 1 —pà m ~ X Szfi + X 0 -Pn + x) ! 


dove 

[43] 



k 


» = i 


Si vede subito che se m ha un valore fisso allora n è funzione 
della sola x. Perciò, in tal caso, se esistono valutazioni sufficienti di 
n la x deve essere una di esse, ogni altra essendo funzione di x. 

Dobbiamo ora vedere se x soddisfa alle condizioni sufficienti per 
essere una « valutazione sufficiente ». Queste condizioni sono date dal 
Teorema II. 

Per applicare questo teorema scriviamo la espressione.che dà la. 

h 

probabilità che la variabile casuale X — ^ X* assuma il valore x. 

* -* i 

Essa è data da 


[44} 


p(x) = 


mi 

_~\i ~P*) 


x\(m — x ) ! 


Confrontando questa eguaglianza con la [40] troviamo facil¬ 
mente 


, Xi'jn) ~p(x) ■ ,x>, ■ - ■ ,Xi), 


[45] 
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dove 

[46] <P(x If X 3 , 




m 


: I 


mi 


! ì^ì Xii(nti—Xi)\ 


Poiché la funzione **) non dipende da », si pub 

concludere che x è una valutazione sufficiente di ». 

È ovvio tuttavia che x da sé stesso non può essere considerato 
come un valore approssimato di ». Un tal 'valore potrebbe essere 
fornito da una funzione di x che dipenda dal metodo di valutazione 
che conviene applicare. 

Per esempio, potremo usare il valore di n ottenuto col metodo 
della massima verosimiglianza, risolvendo la [42] rispetto ad n; si ha 


l°g(4 g+ '•— 1 )—l°g(4 g — r ) ^ r ^ I°g(4 g+I —i)log(4 g — ») 

log 4 ^ log 4 


dove Q = xj(m — x). 

D’altra parte potremmo anche applicare il principio della spe¬ 
ranza matematica. In tal caso dovremmo considerare la speranza 
matematica di X y cioè E(X) — m • 4~ M e considerare il valore n~n 
per il quale E (X) quagli la media aritmetica dei valori osservati 
di X . Il parametro n sarebbe allora valutato mediante Finterò più 
vicino a ». 

Le due valutazioni non saranno necessariamente eguali. 

Qualunque possa essere il metodo di stima, nel caso presente* 
segue però che noi possiamo fermare la nostra attenzione su x e 
considerare una funzione della sola x come quella che possa fornire 
un valore approssimato di n. Una volta nota x i singoli valori di 
x t i x% t • • • t xjt o di una loro funzione non ci daranno nessun nuovo 
ragguaglio su n. 

I teoremi I e II sono stati dimostrati sotto le ipotesi restrittive 
concernenti la regolarità della statistica T nel caso'che le variabili 
casuali Xj, X a , • * •, X n siano continue. I casi considerati sono i più 
semplici e, nello stesso tempo, i più importanti dal punto di vista 
delle applicazioni. Comunque non vi è dubbio che il campo di appli¬ 
cazione dei teoremi sia molto più vasto. 



